在本报告中,我们介绍了 Qwen2.5,这是一系列全面的大型语言模型 (LLM),旨在满足多样化的需求。与之前的迭代相比,Qwen 2.5 在预训练和后训练阶段都有了显著的提升。在预训练方面,我们将高质量的预训练数据集从之前的 7 万亿个 token 扩展到 18 万亿个 token,为常识、专家知识和推理能力提供了坚实的基础。在后训练方面,我们实现了超过 100 万个样本的复杂监督微调,以及多阶段强化学习,包括离线学习 DPO 和在线学习 GRPO。后训练技术显著增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令跟随。
主要关键词
![arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第1页](/bimg/8/84f570266310c1708efb78dd9f4e3bcdb9ac1f80.webp)
![arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第2页](/bimg/0/03e85a4683ba94ffc945eb8e3c5a45062097dcfd.webp)
![arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第3页](/bimg/0/0ef4b5297264e3ac01d13e8df2bb96e9cf7cf4e1.webp)
![arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第4页](/bimg/c/c32f4cf0ea3117295d6a26d1d2818a4e78da87f0.webp)
![arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第5页](/bimg/0/0a59ff8c1cf7e1cf49c9ae855a2a7cad7189b7c2.webp)
